这是Spark入门的第三篇，也是最后一篇。说是入门，其实就只是简单的根据两本Spark书本，结合网络资料，自己一边动手实现，一边做的记录。自己看的时候确实方便许多，重新搭建一遍Hadoop-2.6.4的时候，查看前两篇记录，重现一遍的时候效率很高。

环境的搭建只是基础中的基础，不过之后的一切工作都要在这上面展开，并且用途也因人而异。因此这部分的记录入门尚可。

通过Spark提供的示例LocalPi测试Spark集群

该示例是用Spark的run-example命令在Spark集群里运行示例LocalPi，最终打印Pi的一个大约的值到Shell控制台。

（1）启动Spark集群和Spark Shell

（2）进入Spark的bin目录下，用run-example命令运行Spark自带的示例LocalPi，该示例的源码如下：

package org.apache.spark.examples

import scala.math.random

import org.apache.spark._
import org.apache.spark.SparkContext._

object LocalPi {
  def main(args: Array[String]) {
    var count = 0
    for (i <- 1 to 100000) {
      val x = random * 2 - 1
      val y = random * 2 - 1
      if (x*x + y*y < 1) count += 1
    }
    println("Pi is roughly " + 4 * count / 100000.0)
  }
}

在master结点的Spark的bin目录下输入以下命令：

root@master:/usr/local/spark/spark-1.6.2-bin-hadoop2.6# ./bin/run-example org.apache.spark.examples.LocalPi spark://master:7077
Pi is roughly 3.14716
root@master:/usr/local/spark/spark-1.6.2-bin-hadoop2.6#

结语

根据书本整理的三篇Spark入门文章到此结束。大致实现思路均为本人亲自实现，修正了书本中的一些错误。

更为详细的使用，以及一些理论知识，还需要进一步学习！